Classification de documents Amélioration de la co-similarité pour la classification de documents
نویسندگان
چکیده
La classification conjointe d’objets et de leur descripteurs – par exemple de documents avec les mots les composant – encore appelée co-classification, a été largement étudiée ces dernières années, car elle permet d’extraire des classes plus pertinents, qu’elle soit explicite ou latente. Dans de précédents travaux (Bisson & Hussain, 2008), nous avons proposé une méthode de calcul simultané des matrice de similarité entre objets et entre descripteurs, chacune étant construite à partir de l’autre. Nous proposons ici une généralisation de cette approche en introduisant une pseudo-norme et un algorithme de seuillage. Nos expérimentations mettent en évidence une amélioration significative de la classification, notamment par rapport à d’autres méthodes. Mots-clés : co-clustering, similarity measure, text mining
منابع مشابه
Using a co-similarity approach on a large scale text categorization task
This paper presents a framework we developed for the second Large Scale Hierarchical Text Categorization challenge LSHTC2 . The main idea is to propose a method allowing to deal with the terms variability among the categories in order to be able to find similarities between collections of documents belonging to the same category but having few common terms. Thus, we used a co-similarity based a...
متن کاملClassification Automatique Non supervisée de Documents Textuels basés sur Wordnet
Mettre en œuvre l’une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document dj sera transfo...
متن کاملLa Classification non Supervisée (Clustering) de Documents Textuels par les Automates Cellulaires
Résumé : Dans cet article nous présentons un automate cellulaire (Class_AC) pour résoudre un problème de text mining en l’occurrence la classification non supervisée (Clustering). Avant de procéder à l’expérimentation par l’automate cellulaire, nous avons vectorisés nos données en procédant à l’indexation des documents textuels provenant de la base de donnée REUTERS 21578 par l’approche Wordnet...
متن کاملExpériences de classification d'une collection de documents XML de structure homogène
Résumé. Cet article présente différentes expériences de classification de documents XML de structure homogène, en vue d’expliquer et de valider une présentation organisationnelle pré-existante. Le problème concerne le choix des éléments et mots utilisés pour la classification et son impact sur la typologie induite. Pour cela nous combinons une sélection structurelle basée sur la nature des élém...
متن کامل